Out-of-distribution (OOD) generalisation aims to build a model that can well generalise its learnt knowledge from source domains to an unseen target domain. However, current image classification models often perform poorly in the OOD setting due to statistically spurious correlations learning from model training. From causality-based perspective, we formulate the data generation process in OOD image classification using a causal graph. On this graph, we show that prediction P(Y|X) of a label Y given an image X in statistical learning is formed by both causal effect P(Y|do(X)) and spurious effects caused by confounding features (e.g., background). Since the spurious features are domain-variant, the prediction P(Y|X) becomes unstable on unseen domains. In this paper, we propose to mitigate the spurious effect of confounders using front-door adjustment. In our method, the mediator variable is hypothesized as semantic features that are essential to determine a label for an image. Inspired by capability of style transfer in image generation, we interpret the combination of the mediator variable with different generated images in the front-door formula and propose novel algorithms to estimate it. Extensive experimental results on widely used benchmark datasets verify the effectiveness of our method.
translated by 谷歌翻译
语义分割是开发医学图像诊断系统的重要任务。但是,构建注释的医疗数据集很昂贵。因此,在这种情况下,半监督方法很重要。在半监督学习中,标签的质量在模型性能中起着至关重要的作用。在这项工作中,我们提出了一种新的伪标签策略,可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法,该方法在标记的数据集上训练教师模型,然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做,伪标签将被更新,并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于,我们在学生培训过程中更新教师模型。因此,在学生培训过程中,提高了伪标签的质量。我们还提出了一种简单但有效的策略,以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合,我们在五个数据集中平均达到了84.1%的骰子分数(即Kvarsir,CVC-ClinicdB,Etis-laribpolypdb,cvc-colondb,cvc-colondb,cvc-colondb和cvc-300)和CVC-300)只有20%的数据集用作标记数据。我们的结果超过了3%的共同实践,甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到
translated by 谷歌翻译
弥补联邦学习(FL)模型的分散培训中所涉及的成本的激励措施是客户长期参与的关键刺激。但是,由于缺乏以下信息,请说服客户在FL上进行质量参与:(i)有关客户数据质量和属性的完整信息; (ii)客户数据贡献的价值; (iii)货币奖励优惠的可信赖机制。这通常会导致培训和沟通效率较差。尽管有几项工作着重于战略激励设计和客户选择以克服这个问题,但就针对预见的数字经济(包括Web 3.0)量身定制的总体设计存在一个重大的知识差距,同时同时实现了学习目标。为了解决这一差距,我们提出了一个基于贡献的令牌化激励方案,即\ texttt {fedToken},并得到区块链技术的支持,可确保在模型培训期间与其数据估值相对应的客户之间的公平分配。利用工程设计的基于Shapley的计划,我们首先近似模型聚合过程中本地模型的贡献,然后战略性地安排客户降低沟通循环的融合和锚定方式,以分配\ emph {负担得起的}代币在受限的货币预算下。广泛的模拟证明了我们提出的方法的功效。
translated by 谷歌翻译
近年来,使用正交矩阵已被证明是通过训练,稳定性和收敛尤其是控制梯度来改善复发性神经网络(RNN)的一种有希望的方法。通过使用各种门和记忆单元,封闭的复发单元(GRU)和长期短期记忆(LSTM)体系结构解决了消失的梯度问题,但它们仍然容易出现爆炸梯度问题。在这项工作中,我们分析了GRU中的梯度,并提出了正交矩阵的使用,以防止梯度问题爆炸并增强长期记忆。我们研究了在哪里使用正交矩阵,并提出了基于Neumann系列的缩放尺度的Cayley转换,以训练GRU中的正交矩阵,我们称之为Neumann-cayley Orthoconal orthoconal Gru或简单的NC-GRU。我们介绍了有关几个合成和现实世界任务的模型的详细实验,这些实验表明NC-GRU明显优于GRU以及其他几个RNN。
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
尽管在自动语音识别(ASR)中最近的表现方法增加了,但这种方法并不能确保其输出的适当套管和标点符号。这个问题对自然语言处理(NLP)算法和人类的理解都有重大影响。对于原始文本输入的预处理管道,必须进行资本化和标点符号恢复。对于越南人等低资源语言,此任务的公共数据集很少。在本文中,我们为越南人的资本化和标点符号恢复贡献了一个公共数据集;并提出了两个名为intercappunc的任务的联合模型。越南数据集的实验结果显示了我们联合模型的有效性与单个模型和先前的联合学习模型相比。我们在https://github.com/anhtunguyen98/jointcappund上公开发布数据集和模型的实现
translated by 谷歌翻译
端到端的口语理解(SLU)使用单个模型直接从音频中预测意图。它有望通过利用中间文本表示中丢失的声学信息来提高助手系统的性能,并防止自动语音识别(ASR)中的级联错误。此外,在部署助手系统时,拥有一个统一模型具有效率优势。但是,具有语义解析标签的公共音频数据集有限的数量阻碍了该领域的研究进展。在本文中,我们发布了以任务为导向的语义解析(Stop)数据集,该数据集是公开可用的最大,最复杂的SLU数据集。此外,我们定义了低资源拆分,以建立有限的标记数据时改善SLU的基准。此外,除了人类录制的音频外,我们还发布了TTS生成版本,以基于端到端SLU系统的低资源域适应性的性能。最初的实验表明,端到端SLU模型的性能比级联的同行差一些,我们希望这能鼓励未来的工作。
translated by 谷歌翻译
学习与选择建模的交集是研究的积极研究领域,并在电子商务,信息检索和社会科学中的应用。在某些应用程序(例如推荐系统)中,统计学家主要有兴趣使用被动收集的离散选择数据,即,用户从一组项目中选择一项项目多个项目。在这种实用的考虑方面,我们提出了基于选择的Borda Count算法,作为顶级$ k $ - 重新发现的快速准确的排名算法,即正确识别所有顶级$ K $项目。我们表明,基于选择的Borda计数算法具有最佳的样本复杂性,适用于$ K $恢复在广泛的随机实用程序模型下。我们证明,在极限上,基于选择的Borda计数算法与常用的最大似然估计方法产生相同的顶部$ K $估计值,但是前者的速度和简单性在实践中带来了可观的优势。合成数据集和真实数据集的实验表明,计数算法在准确性方面与常用的排名算法具有竞争力,同时更快地数量级。
translated by 谷歌翻译
神经崩溃的概念是指在各种规范分类问题中经验观察到的几种新兴现象。在训练深度神经网络的终端阶段,同一类的所有示例的特征嵌入往往会崩溃为单一表示,而不同类别的特征往往会尽可能分开。通常通过简化的模型(称为无约束的特征表示)来研究神经崩溃,其中假定模型具有“无限表达性”,并且可以将每个数据点映射到任何任意表示。在这项工作中,我们提出了不受约束的功能表示的更现实的变体,该变体考虑到了网络的有限表达性。经验证据表明,嘈杂数据点的记忆导致神经崩溃的降解(扩张)。使用记忆 - 稀释(M-D)现象的模型,我们展示了一种机制,通过该机制,不同的损失导致嘈杂数据上受过训练的网络的不同性能。我们的证据揭示了为什么标签平滑性(经验观察到产生正则化效果的跨凝性的修改)导致分类任务的概括改善的原因。
translated by 谷歌翻译
基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译